创建 RDD

from pyspark import SparkConf, SparkContext

# local: 本地模式
conf = SparkConf().setAppName("create rdd").setMaster("local")
# 显式创建 SparkContext 让可以我们同时创建多个 RDD
sc = SparkContext(conf=conf)
# 使用 parallelize 在内部数据之上创建 RDD
rdd1 = sc.parallelize(["Spark", "is", "cool"])
rdd1.take(3)
['Spark', 'is', 'cool']
# 使用 textFile 读取文本文件创建 RDD
rdd2 = sc.textFile("../data/wikiOfSpark.txt")
rdd2.take(3)
['Apache Spark',
 'From Wikipedia, the free encyclopedia',
 'Jump to navigationJump to search']